Pandas是python的一個數據分析lib,提供高效能、簡易使用的資料格式(Data Frame)讓使用者可以快速操作及分析資料,主要特色描述如下:
在異質數據的讀取、轉換和處理上,都讓分析人員更容易處理,例如:從列欄試算表中找到想要的值。
Pandas 提供兩種主要的資料結構,Series 與 DataFrame,Series是用來處理時間序列相關的資料(如感測器資料等),主要為建立索引的一維陣列。DataFrame 則是用來處理結構化(Table like)的資料,有列索引與欄標籤的二維資料集,例如關聯式資料庫、CSV(補充CSV:很常用來做為試算表或資料庫匯出、匯入的媒介格式)
透過載入至 Pandas 的資料結構物件後,可以透過結構化物件所提供的方法,來快速地進行資料的前處理,如資料補值,空值去除或取代等。
更多的輸入來源及輸出整合性,例如:可以從資料庫讀取資料進入 Dataframe,也可將處理完的資料存回資料庫。我們引用 pandas 套件之後依照使用慣例將它縮寫為 pd,最基本建立 data frame 的方式是利用 pandas 套件的 DataFrame() 方法將一個 dictionary06python Dictionary 的資料結構轉換為 data frame
import pandas as pd
groups = ["Modern Web", "DevOps", "Cloud", "Big Data", "Security"]
num = [59, 9, 19, 14, 6]
num_dict = {
"groups": groups,
"num": num
}
# 建立 data frame
num_df = pd.DataFrame(num_dict)
data frame可以透過drop()方法來刪除觀測值或欄位,指定參數 axis = 0 表示要刪除觀測值(row),指定參數 axis = 1 表示要刪除欄位(column)
# 刪除觀測值
num_df_no_mw = num_df.drop(0, axis = 0)
print(num_df_no_mw)
print("---") # 分隔線
# 刪除欄位
num_df_no_groups = num_df.drop("groups", axis = 1)
print(num_df_no_groups)
我們可以透過 ix 屬性(利用索引值)篩選 data frame
# 建立 data frame
num_df = pd.DataFrame(num_dict)
# 選擇欄位
print(num_df.ix[:, "groups"])
# 選擇觀測值
print(num_df.ix[2])
# 同時選擇欄位與觀測值
print(num_df.ix[2, "groups"])
不好意思,想請問一下:
num_dict = {
"groups": groups,
"ironmen": ironmen
}
上方的ironmen
是怎麼來的